NFKC NFKD
前提として
NFC NFD
Kはcompatiblityの意味
NFKCやNFKDは、いつでも使うようなものではなく、使いどころに気を付ける必要があります。(p.531)
半角濁点を結合文字のように扱ってしまう
ローマ数字のⅡが大文字のアイ2文字になってしまう
①がただの1になってしまう
いつでも使うように認識されているように思われる
Sudachiによる自然言語処理の正規化
Pythonで全角→半角変換
(『BERTによる自然言語処理入門』でも)
Django における認証処理実装パターン
TODO 形態素解析器はどういう文字コードを想定?